Spoken language understanding (SLU) tasks have been studied for many decades in the speech research community, but have not received as much attention as lower-level tasks like speech and speaker recognition. In particular, there are not nearly as many SLU task benchmarks, and many of the existing ones use data that is not freely available to all researchers. Recent work has begun to introduce such benchmark datasets for several tasks. In this work, we introduce several new annotated SLU benchmark tasks based on freely available speech data, which complement existing benchmarks and address gaps in the SLU evaluation landscape. We contribute four tasks: question answering and summarization involve inference over longer speech sequences; named entity localization addresses the speech-specific task of locating the targeted content in the signal; dialog act classification identifies the function of a given speech utterance. We follow the blueprint of the Spoken Language Understanding Evaluation (SLUE) benchmark suite. In order to facilitate the development of SLU models that leverage the success of pre-trained speech representations, we will be publishing for each task (i) annotations for a relatively small fine-tuning set, (ii) annotated development and test sets, and (iii) baseline models for easy reproducibility and comparisons. In this work, we present the details of data collection and annotation and the performance of the baseline models. We also perform sensitivity analysis of pipeline models' performance (speech recognizer + text model) to the speech recognition accuracy, using more than 20 state-of-the-art speech recognition models.
translated by 谷歌翻译
Self-supervised pre-trained transformers have improved the state of the art on a variety of speech tasks. Due to the quadratic time and space complexity of self-attention, they usually operate at the level of relatively short (e.g., utterance) segments. In this paper, we study the use of context, i.e., surrounding segments, during fine-tuning and propose a new approach called context-aware fine-tuning. We attach a context module on top of the last layer of a pre-trained model to encode the whole segment into a context embedding vector which is then used as an additional feature for the final prediction. During the fine-tuning stage, we introduce an auxiliary loss that encourages this context embedding vector to be similar to context vectors of surrounding segments. This allows the model to make predictions without access to these surrounding segments at inference time and requires only a tiny overhead compared to standard fine-tuned models. We evaluate the proposed approach using the SLUE and Librilight benchmarks for several downstream tasks: Automatic speech recognition (ASR), named entity recognition (NER), and sentiment analysis (SA). The results show that context-aware fine-tuning not only outperforms a standard fine-tuning baseline but also rivals a strong context injection baseline that uses neighboring speech segments during inference.
translated by 谷歌翻译
口语语言理解(SLU)任务涉及从语音音频信号映射到语义标签。鉴于此类任务的复杂性,可能预期良好的性能需要大量标记的数据集,这很难为每个新任务和域收集。但是,最近的自我监督讲话表现的进步使得考虑使用有限标记的数据学习SLU模型是可行的。在这项工作中,我们专注于低资源讨论(ner)并解决问题:超越自我监督的预培训,我们如何使用未为任务注释的外部语音和/或文本数据?我们借鉴了各种方法,包括自我训练,知识蒸馏和转移学习,并考虑其对端到端模型和管道(语音识别后跟文本型号)的适用性。我们发现,这些方法中的几种方法可以在资源受限的环境中提高绩效,超出了训练有素的表示的福利。与事先工作相比,我们发现改进的F1分数高达16%。虽然最好的基线模型是一种管道方法,但使用外部数据时最终通过端到端模型实现的最佳性能。我们提供了详细的比较和分析,例如,端到端模型能够专注于更加立列人的单词。
translated by 谷歌翻译
通过共享数据集和基准,已经促进了语音处理的进展。历史上,这些都集中在自动语音识别(ASR),扬声器标识或其他较低级别的任务上。兴趣在更高层次的口语中越来越多,理解任务,包括使用端到端模型,但是此类任务的注释数据集较少。与此同时,最近的工作显示了预先培训通用表示的可能性,然后使用相对较少标记的数据进行微调的多个任务。我们建议为口语语言理解(屠宰)创建一套基准任务,由有限尺寸标记的培训集和相应的评估集组成。该资源将允许研究界跟踪进度,评估高级任务的预先接受预期的表示,并研究开放的问题,例如管道与端到端方法的实用性。我们介绍了雪橇基准套件的第一阶段,包括指定实体识别,情感分析和相应数据集上的ASR。我们专注于自然产生的(未读取或综合)语音和自由可用的数据集。我们为VoxceReb和Voxpopuli数据集的子集提供新的转录和注释,基线模型的评估指标和结果,以及重现基线的开源工具包,并评估新模型。
translated by 谷歌翻译
具有对比目标的训练前视觉模型已显示出令人鼓舞的结果,这些结果既可以扩展到大型未经切割的数据集,又可以传输到许多下游应用程序。以下一些作品针对提高数据效率,通过添加自学意义来提高数据效率,但是在这些作品中的单个空间上定义了对比度损失(图像文本)对比度损失和内域(图像图像)对比度损失,因此许多可行的可行性监督的组合被忽略了。为了克服这个问题,我们提出了Uniclip,这是对对比语言图像预训练的统一框架。 Uniclip将域间对和域内对的对比损失整合到一个单一的通用空间中。 Uniclip的三个关键组成部分解决了整合不同域之间对比度损失时发生的差异:(1)增强感知功能嵌入,(2)MP-NCE损失和(3)域相似性度量。 Uniclip的表现优于以前的视觉语言预训练方法,在下游任务的各种单模式和多模式上。在我们的实验中,我们表明每个组成的分支都对最终性能有很好的贡献。
translated by 谷歌翻译
我们介绍了FastCoref,这是一个用于快速,准确且易于使用的英语核心分辨率的Python软件包。该软件包是可以安装的,并且允许两种模式:基于LingMess体系结构的精确模式,提供最新的核心精度,以及基本更快的模型F-Coref,这是本工作的重点。\ Model {}允许在V100 GPU上25秒内处理2.8K Ontonotes文档(相比之下,LingMess模型为6分钟,而流行的AllennLP Coreference模型的12分钟仅适度精度下降。快速速度是通过将紧凑模型从Lingmess模型中蒸馏而成的,以及使用我们称为“剩余批处理”的技术的有效批处理实现。https://github.com/shon-otmazgin/fastcoref
translated by 谷歌翻译
预训练的代表是现代深度学习成功的关键要素之一。但是,现有的关于持续学习方法的作品主要集中在从头开始逐步学习学习模型。在本文中,我们探讨了一个替代框架,以逐步学习,我们不断从预训练的表示中微调模型。我们的方法利用了预训练的神经网络的线性化技术来进行简单有效的持续学习。我们表明,这使我们能够设计一个线性模型,其中将二次参数正则方法作为最佳持续学习策略,同时享受神经网络的高性能。我们还表明,所提出的算法使参数正则化方法适用于类新问题。此外,我们还提供了一个理论原因,为什么在接受跨凝结损失训练的神经网络上,现有的参数空间正则化算法(例如EWC表现不佳)。我们表明,提出的方法可以防止忘记,同时在图像分类任务上实现高连续的微调性能。为了证明我们的方法可以应用于一般的持续学习设置,我们评估了我们在数据收入,任务收入和课堂学习问题方面的方法。
translated by 谷歌翻译
尽管韩国的架构管理信息已经长时间提供了高质量的信息,但信息的效用水平并不高,因为它专注于行政信息。虽然这是这种情况,但具有更高分辨率的三维(3D)地图随着技术的发展而出现。然而,它不能比视觉传输更好地运行,因为它仅包括聚焦在建筑物外部的图像信息。如果可以从3D地图中提取或识别与建筑物外部相关的信息,则预计信息的效用将更有价值,因为国家架构管理信息可以扩展到包括关于建筑物的这些信息外部到BIM的水平(建筑信息建模)。本研究旨在展示和评估利用深度学习和数字图像处理的3D映射的3D映射的建筑物外观相关信息的基本方法。在从地图中提取和预处理图像之后,使用快速R-CNN(具有卷积神经元网络的区域)模型来识别信息。在从地图中提取和预处理图像后,使用更快的R-CNN模型来识别信息。结果,它在检测到建筑物的高度和窗户部分以及旨在提取建筑物的高程信息的实验中的优异性能方面表现出大约93%和91%的精度。尽管如此,预计将通过补充混合由实验者的误解引起的误报或噪声数据的概率来获得改进的结果,从而与窗户的不明确的界限。
translated by 谷歌翻译